Felix Reda saß von 2014 bis 2019 für die Piraten im Europäischen Parlament und verantwortet heute bei der Gesellschaft für Freiheitsrechte das Projekt „control c“ zu Urheberrecht und Kommunikationsfreiheit. Dieser Beitrag erschien zuerst in seiner Kolumne auf heise.de und wurde dort unter der Lizenz CC BY 4.0 veröffentlicht.
GitHub sorgt mit seinem Programm Copilot aktuell für viel Aufregung in der Freie-Software-Szene. Copilot ist eine auf Grundlage von öffentlich verfügbarem Quellcode und Texten trainierte künstliche Intelligenz, die beim Programmieren in Echtzeit Codevorschläge produziert. Da sich Copilot dabei auch der zahlreichen GitHub-Repositories unter Copyleft-Lizenzen wie der GPL als Trainingsmaterial bedient, sehen einige Kommentator:innen in Copilot eine Urheberrechtsverletzung, denn Copilot steht seinerseits nicht unter einer Copyleft-Lizenz, sondern soll nach einer Testphase als kostenpflichtige Dienstleistung angeboten werden.
Die Kontroverse berührt gleich mehrere urheberrechtliche Aufregerthemen. Erstaunlich an der aktuellen Debatte ist, dass die Rufe nach einer möglichst weiten Auslegung des Urheberrechts nun ausgerechnet aus der Mitte der Freie-Software-Community kommen.
Copyleft profitiert nicht von Urheberrechtsverschärfungen
Copyleft-Lizenzen sind eine geniale Erfindung, mit der sich die Freie-Software-Szene das Urheberrecht als scharfes Schwert der Inhalteindustrie zunutze gemacht hat, um den freien Austausch von Kultur und Innovation zu fördern. Unter Copyleft lizenzierte Werke dürfen von allen kopiert, geändert und verbreitet werden, solange alle Kopien oder abgeleiteten Werke ihrerseits unter denselben Bedingungen weiterverwendet werden dürfen. Auf diese Weise entsteht eine positive Dynamik, dank der immer mehr Innovationen der Allgemeinheit offenstehen. Das Urheberrecht, das eigentlich dazu konzipiert war, Exklusivität über Schöpfungen zu garantieren, wird hier genutzt, um zu verhindern, dass der Zugang zu abgeleiteten Werken beschränkt wird.
Klar ist aber auch, dass es gar keine Copyleft-Lizenzen geben müsste, wenn das Urheberrecht nicht grundsätzlich ein so hohes Maß an exklusiver Kontrolle über geistige Schöpfungen garantieren würde. Wenn es nicht möglich wäre, mittels des Urheberrechts die Nutzung und Modifizierung von Software-Code zu verbieten, dann bräuchte es auch keine Lizenzen, die verhindern, dass Entwickler:innen von diesen Verbotsrechten Gebrauch machen. Deshalb ist es so widersinnig, wenn sich Copyleft-Enthusiast:innen für eine Ausweitung des Urheberrechts stark machen. Denn sie müssen bedenken: Diese Ausweitung von Verbotsrechten stärkt nicht nur die Durchsetzung von Copyleft-Lizenzen, sondern auch die sehr viel verbreiteteren Copyright-Lizenzen, die genau das Gegenteil bezwecken.
Genau das passiert aber in der aktuellen Debatte um GitHubs Copilot. Weil hier ein großes Unternehmen – GitHubs Mutterkonzern Microsoft – von der Existenz freier Software profitiert und eine kommerzielle Dienstleistung darauf aufbaut, mag die Idee naheliegen, das Urheberrecht zu nutzen, um Microsoft diese Entwicklung zu verbieten. Die Copyleft-Szene läuft hier aber Gefahr, eine Ausweitung des Urheberrechts auf Handlungen zu fordern, die bisher aus gutem Grund nicht unter das Urheberrecht fallen. Diese Ausweitungen hätten jedoch fatale Folgen für den freien Zugang zu Wissen und Kultur, den Copyleft-Lizenzen eigentlich fördern wollen.
Es kursieren zwei Varianten der Kritik an GitHubs Copilot. Einerseits wird bereits die Verwendung von Freier Software als Ausgangsmaterial für die KI-Anwendung kritisiert, andererseits die Möglichkeit von Copilot, selbst Outputs zu erzeugen, die auf den Trainingsdaten basieren (und die Kommerzialisierung dieser Funktionalität). Beides mag man ethisch verwerflich finden, doch das Urheberrecht wird dabei nicht verletzt.
Text & Data Mining ist keine Urheberrechtsverletzung
Einige kritisieren bereits das Scrapen von Code ohne Erlaubnis der Urheber:innen. Dabei ist das reine Lesen und Verarbeiten von Informationen keine urheberrechtlich relevante Handlung, die einer Erlaubnis bedürfe – wenn ich in einen Buchladen gehe, ein Buch aus dem Regal nehme und anfange es zu lesen, verletze ich dadurch keinerlei Urheberrechte.
Dass sich Scrapen von Inhalten für das Trainieren einer künstlichen Intelligenz überhaupt im Bereich des Urheberrechts bewegt, liegt daran, dass digitale Technologie es erfordert, Kopien von Inhalten anzulegen, um diese weiterzuverarbeiten. Das Kopieren ist grundsätzlich eine urheberrechtlich relevante Handlung. Aus dieser Tatsache resultieren viele der Konflikte zwischen Urheberrecht und Digitalisierung. Glücklicherweise hat die Politik längst erkannt, dass digitale Technologie gänzlich unbenutzbar wäre, wenn jede technische Kopie erlaubnispflichtig wäre. Andernfalls müssten Menschen, die mit digitalen Hörgeräten Musik hören, zunächst eine Lizenz dafür erwerben. Internetprovider müssten alle erdenklichen urheberrechtlich geschützten Werke lizenzieren, die ihre Kund:innen miteinander austauschen. Bereits im Jahre 2001 hat die EU deshalb solche temporären Kopievorgänge, die Teil eines technischen Prozesses sind, uneingeschränkt erlaubt – trotz der Proteste der Unterhaltungsindustrie.
Leider erlaubte diese Urheberrechtsausnahme von 2001 zunächst nur das temporäre, also flüchtige Kopieren von urheberrechtlich geschützten Inhalten. Viele technische Prozesse erfordern jedoch zunächst das Erstellen eines Referenzkorpus, in dem Inhalte dauerhaft gespeichert und erst im Anschluss weiterverarbeitet werden. Diese Notwendigkeit machten Wissenschaftsverlage sich lange zunutze, um Wissenschaftler:innen davon abzuhalten, große Mengen urheberrechtlich geschützter Fachartikel herunterzuladen und automatisiert auszuwerten. Obwohl diese Wissenschaftler:innen legalen Zugriff auf die Inhalte hatten, beispielsweise über ein Abonnement ihrer Universität, versuchten die Verlage das Erstellen von Referenzkorpora vertraglich oder technisch auszuschließen – die Forscher:innen sollten die Fachartikel nur mit ihren eigenen Augen lesen, nicht mit technischen Hilfsmitteln. Maschinengestützte Forschungsmethoden wie beispielsweise die Digital Humanities litten enorm unter dieser Praxis.
„The Right to Read is the Right to Mine“
Unter dem Slogan „The Right to Read is the Right to Mine“ forderten Wissenschaftsverbände deshalb eine explizite Erlaubnis im europäischen Urheberrecht für das sogenannte Text & Data Mining, also das dauerhafte Speichern von urheberrechtlich geschützten Werken zum Zwecke der automatisierten Auswertung. Die Kampagne hatte Erfolg, zum Leidwesen der Wissenschaftsverlage.
Seit der EU-Urheberrechtsrichtlinie von 2019 ist das Text & Data Mining erlaubt – selbst im Fall von kommerziellen IT-Anwendungen können Rechteinhaber:innen ihre Zustimmung zum Text & Data Mining nur verweigern, wenn sie dieses Opt-Out in maschinenlesbarer Form hinterlegen (beispielsweise in der robots.txt). Nach europäischem Urheberrecht ist das Scrapen von GPL-lizenziertem Code, oder jeglicher anderer urheberrechtlich geschützter Werke unabhängig von der verwendeten Lizenz, also urheberrechtlich unproblematisch. In den USA fällt Scrapen unter Fair Use, das ist spätestens seit dem Google-Books-Fall klar.
Maschinengenerierter Code ist kein abgeleitetes Werk
Einige Kommentator:innen sehen in GitHubs Copilot eine Urheberrechtsverletzung, weil das Programm nicht nur urheberrechtlich geschützten Softwarecode als Trainingsmaterial verwendet, sondern seinerseits Software-Code als Output erzeugt. Dieser Output-Code sei ein abgeleitetes Werk der Trainingsdatensätze, weil die KI ohne die Trainingsdaten nicht in der Lage wäre, den Code zu erzeugen. In einigen wenigen Fällen gibt Copilot außerdem laut GitHubs FAQ kurze Ausschnitte aus den Trainingsdatensätzen wieder.
Diese Argumentation ist in zweierlei Hinsicht gefährlich: Einerseits suggeriert sie, dass bereits die Wiedergabe von kleinsten Ausschnitten aus geschützten Werken eine Urheberrechtsverletzung darstelle. Das ist nicht der Fall. Urheberrechtlich relevant ist eine solche Nutzung erst dann, wenn der verwendete Ausschnitt seinerseits originell und einzigartig genug ist, um Schöpfungshöhe zu erreichen. Andernfalls würden ständig urheberrechtliche Konflikte entstehen, wenn zwei Urheber:innen unabhängig voneinander den gleichen trivialen Satz verwenden – beispielsweise „Bayern München schlägt Borussia Dortmung 2:1 nach Verlängerung“, oder eben zwei Programmierer:innen „i = i+1“.
Schöpfungshöhe erreicht?
Die Schöpfungshöhe dürfte bei den kurzen Codeschnipseln, die Copilot aus Trainingsdaten extrahiert, nicht gegeben sein. Gerade weil das Urheberrecht nur Ausschnitte schützt, die die Schöpfungshöhe erreichen, haben Presseverlage erfolgreich für ein eigenes Leistungsschutzrecht lobbyiert, das diese Anforderung nicht enthält. Ihr Ziel ist es, auch die Anzeige von einzelnen Sätzen aus Presseartikeln beispielsweise durch Suchmaschinen zu verbieten. Genau dieser problematischen Forderung schließt die Freie Software-Community sich an, wenn sie absolute Kontrolle über kleinste Ausschnitte aus Software-Code verlangt.
Andererseits basiert die Argumentation, bei den Outputs von GitHubs Copilot handle es sich um abgeleitete Werke der Trainingsdaten, auf der Annahme, eine Maschine könne Werke erzeugen. Auch das ist falsch und kontraproduktiv. Das Urheberrecht ist bislang nur auf geistige Schöpfungen anwendbar – wo keine Schöpferin, da kein Werk. Das bedeutet, dass maschinengenerierter Code wie der von GitHubs Copilot überhaupt kein Werk im urheberrechtlichen Sinne darstellt, also auch kein abgeleitetes Werk. Der Output einer Maschine ist urheberrechtlich schlicht nicht schutzfähig – er ist gemeinfrei. Das sind gute Nachrichten für den freien Zugang zu Wissen und Kultur.
Wer nun argumentiert, dass es sich bei dem Output um abgeleitete Werke der Trainingsdaten handelt, mag das hehre Ziel verfolgen, diese Outputs unter die Lizenzbedingungen der GPL zu stellen. Doch der unangenehme Nebeneffekt einer solchen Ausweitung des Urheberrechts wäre, dass alle anderen KI-generierten Inhalte fortan ebenfalls urheberrechtlich geschützt wären.
Urheberrecht für maschinell erstellte Werke
Was würde ein Musiklabel daran hindern, eine KI mit ihrem Musikkatalog zu trainieren, um automatisch alle erdenklichen Melodien zu generieren und deren Nutzung durch Dritte zu untersagen? Was würde Verlage stoppen, Millionen Sätze zu erzeugen und auf diesem Wege die Sprache zu privatisieren?
Bei der Weltorganisation für Geistiges Eigentum WIPO lobbyieren Unternehmen bereits heute für eine Ausweitung des Urheberrechts auf maschinengenerierte Werke. So heißt es seitens der WIPO: „Im Mittelpunkt steht die Frage, ob das bestehende IP-System geändert werden muss, um einen ausgewogenen Schutz für maschinell erstellte Werke zu gewährleisten“, von einer solchen Ausweitung des Urheberrechts würden in erster Linie die Technologiekonzerne profitieren, die in der Lage sind, KI-Anwendungen zu entwickeln und zu skalieren. Dazu gehört auch Microsoft. Kritiker:innen von GitHubs Geschäftsgebahren täten also gut daran, dieser Strategie nicht auch noch in die Hände zu spielen.
Dem stimme ich nicht zu. Man muss hier zwischen dem Quellcode und kompiliertem Code unterscheiden. Selbst wenn jegliche Nutzung und Modifizierung von Software urheberrechtlich stets erlaubt wäre, könnte man trotzdem den Quellcode von Windows, macOS, Photoshop, etc nicht lesen oder modifizieren, weil die Hersteller ihn schlicht nicht der Öffentlichkeit verfügbar machen würden. Es wäre zwar rechtlich erlaubt, aber praktisch nicht möglich. Und genauso wären in einer solchen Welt abgeleitete Werke von Software die jetzt copyleft ist üblicherweise weniger „frei“ als in unserer Welt. Google hätte in einer solchen Welt Android auf Linux aufbauen können, aber sie hätten den Quellcode ihrer Modifikationen nicht veröffentlichen müssen (und es daher vermutlich auch nicht getan).
Zitat: „Copilot ist eine auf Grundlage von öffentlich verfügbarem Quellcode und Texten trainierte künstliche Intelligenz, die beim Programmieren in Echtzeit Codevorschläge produziert.“
On June 4, 2018, Microsoft announced its intent to acquire GitHub for US$7.5 billion. The deal closed on October 26, 2018.
In September 2019, GitHub acquired Semmle, a code analysis tool.
Microsoft hat 2018 vor allem den Zugriff auf Daten gekauft, die Programmierer selbst durch ihr Verhalten dort erzeugen. Man musste damals schon reichlich naiv gewesen sein, um nicht zu sehen, dass Developer höchst wertvolle Meta-/Daten generieren, die mittels Analyse zum Vorteil des MS-Konzerns ausgewertet werden.
Nun hat man einen Weg/Vorwand gefunden, um Programmierern in Echtzeit mittels Deep Learning „über die Schulter“ schauen zu können. Dies ist für sich genommen schon eine reichlich gruselige Vorstellung, mal abgesehen davon, dass man dies auch unter dem Aspekt von Betriebsspionage bewerten könnte, wenn es innovative Arbeiten betrifft.
Nun wird das Sahnehäubchen darauf gesetzt, indem unbedarften, unkritischen wie unsmarten Programmieren auch noch „AI-optimierter Code“ angeboten/untergeschoben wird. Use und Dual-Use unter vollständiger Kontrolle einer globalen Wirtschaftsmacht. Chapeau! Und immer schön hilfreich erscheinen …
Wenn der öffentlich verfügbare Code gar nicht als Code benutzt wird, sondern als Trainingsdatensatz, würde es dann Sinn machen, bei Veröffentlichung von Code neben der Open-Source-Lizenz auch eine Freie-Inhalte-Lizenz (z.B. Creative Commons) festzulegen?
Dabei könnte man jegliche kommerzielle Nutzung untersagen, wenn man das möchte. Dann könnte man vielleicht Microsoft für eine kommerzielle Lizenz zahlen lassen.
Hat wahrscheinlich einen Haken. Kenn mich nicht so gut aus.
Dass der Copilot unter Copyleft veröffentlicht werden müsste, sehe ich auch nicht so. Der Quelltext des Copilot dürfte ziemlich überschneidungsfrei sein mit dem der benutzten Github-Repositories.
„Dabei könnte man jegliche kommerzielle Nutzung untersagen, wenn man das möchte. Dann könnte man vielleicht Microsoft für eine kommerzielle Lizenz zahlen lassen.“
Ich meine mich an einen Fall zu erinnern bei dem ein Unternehmen das Linux in seinen Produkten eingesetzt hat gegen die GPL-Lizenz verstoßen hat und nach einer Klage vom Gericht zur Zahlung einer „Straflizenz“ verdonnert wurde, die 200% der üblichen Lizenzgebühren betrug: also 2x 0€ = 0€.
Ein Bericht über den Fall konnte ich hier finden: https://hoganlovells-blog.de/2017/08/11/olg-hamm-schadensersatz-bei-verletzung-einer-open-source-lizenz/#
Zitat: „Ein Schaden neben den Abmahnkosten bestehe wegen des unentgeltlichen Vertriebs der Software dagegen grundsätzlich nicht.“
Solange die Rechtslage so aussieht hat Open-Source und Copyleft das Nachsehen.
Bin kein Experte im Lizenzrecht. Beim Dual-Licencing kann meines Wissens nach der Empfänger entscheiden, welche Lizenz zählt. Man kann z.B. etwas als GPL verbreiten und einer Firma eine Nicht-GPL-Lizenz gegen Geld anbieten, damit diese ihren eigenen kommerziellen Source Code nicht veröffentlichen müssen. Wenn die Firma das nicht braucht, können sie immer auf die GPL-Variante zurückgreifen, dann müssten sie halt ihren kommerziellen Source Code u.U. veröffentlichen.
Und da FOSS kommerzielle Nutzung explizit erlaubt, könnte man eine CC Non-Commercial schön sidesteppen.
Die Idee war nur, wenn der Code gar nicht kompiliert und ausgeführt wird, dann scheint eine Softwarelizenz das falsche Mittel zu sein, um so was zu unterbinden, weil der Code gar nicht als solcher genutzt wird. Aber wie man es am besten unterbindet, weiß ich leider nicht.
Ist auch fraglich, ob man es unterbinden sollte. Es handelt sich ja nicht um eine Weiterentwicklung, von der der ursprüngliche Github-Code profitieren könnte. Der Copilot ist eine Neuentwicklung, und die Leute finden vielleicht nur blöd, dass ein großer Softwarekonzern so easy ein neues Geschäftsmodell entwickeln konnte.
Ich nehme aber mal an, dass der Copilot nicht lokal läuft, sondern auf einem Server – damit ist er für mich sowieso schon raus.
Das wäre dann so mittelbillig. Wie Suchvorschläge, die aber eine Urheberrechtsverletzung darstellen, wenn man sie benutzt. Nutzt ein Programmierer also den Vorschlag… Hammer!
Leider kann ich auch die Copyleft-Seite verstehen, denn wenn man das im Allgemeinen so gelten lässt, könnte man die KI dazu nutzen, um Copyleft von bestehendem Code „runterzuwaschen“.
Verzwickte Situation, und es wundert wohl niemanden, dass nach dem Verkauf von GitHub irgendwas kommen würde, mit dem Microsoft diesen gewaltigen Datenberg auszunutzen versucht. GitHubs kostenloses Modell konnte und kann nur bestehen, solange es einen zukünftigen profitablen Nutzen vorher für die Venture Capitalists und jetzt für Microsoft gibt. Ein Modell, wo man als Projektmaintainer für die Server-Infrastruktur und die Administration einen kleinen Betrag zahlt (2-10€ pro Monat?), wäre da auf jeden Fall ehrlicher. Den Betrag könnte man auch in manchen Fällen, z.B. bei Studierenden, Menschen ohne Zahlungsmöglichkeit, usw. fallen lassen. Oder man könnte Continous Integration-Server gegen Geld anbieten.
Wären nur nicht so viele FOSS-Projekte auf GitHub, wo sie jetzt praktisch festsitzen. Selfhosting wäre ja eine Lösung (Sourcehut, GitLab, Gitea, oder einfach ein plain Git server + mailing list + irgendein Bugtracker fallen mir spontan ein).
Naja und der Textgenerator schlägt ein Stück von Komponist Xnochnichttot als Kommentar im Quellcode vor :), oder noch Subtileres. Das wird ein Argument sein, und es wird auch nicht zu verhindern sein, dass Filter mit KI-generierten Bomben befüttert werden, um Konkurrenz potentiell zu verhindern oder konkret zu behindern. Und es bleibt auch das Schreckgespenst der Mehrklassentanke, d.h. wer die Filter wie womit an welcher Eingangsebene Füttern darf, und welche technischen Voraussetzungen man hat, um Daten so kneten zu können, dass die Befüllung überhaupt funktioniert.
Etwas aus dem Fenster gelehnt: Beispiel Lern-Lernnetzwerke angeflanscht an Hauptnetzwerk (ganz wichtiger Fortschritt bei Machine-Learning +- Netzwerken). Die Musikindustrie darf direkt ein Lern-Lernnetzwerk implementieren (o.ä.), wofür man aber dicke fette Maschinen bzw. ziemlich viel Knete braucht.
Einfacher: Für Geld (viel Geld) darf der Filter an den frei (überhaupt?) zugänglichen Prozessen vorbei (fast) in Echtzeit befüllt werden. Das führt zu Nebenfiltern (teuer aber parallel), die für die ad-hoc Sicherung (Zensur, Diskursbeschneidung, Marktverhinderung) benutzt werden und für einiges Geld bestimmten Cliquen zur Verfügung stehen (BSP. Verwertungsindustrie, Terror/Hass/Kinderporno-Regierungen). Vielleicht gibt es einen Vorfilter, um die Last etwas zu senken (vgl. Werbefeatures von Google/Facebook et. al.).
Das kann auch eine böswillige Orakelmaschine werden, bei der nicht das passiert, was klein Erna erwartet.
Aus meiner Sicht gibt es einen problematischen Fall: Wenn die Code-Vorschläge des Systems lang und interessant genug sind, um unter das Urheberrecht zu fallen und gleichzeitig fast identisch mit einem bestehenden Code-Fragment unter einer Freie Software-Lizenz. Wenn das System sicher stellt, dass das nicht passiert (entweder durch Abgleich der Codestellen oder durchs Beschränken der Vorschlagslänge und -komplexität), dann ist dieser Fall natürlich gelöst.
Neben der Tatsache, dass meiner Meinung nach Opt-Out immer der falsche Ansatz ist und man es jedem Entwickler überlassen sollte, ob er/sie sein/ihr Projekt für diese Zwecke zur Verfügung stellt, sehe ich in diesem Artikel das Problem, dass das falsche Projekt anvisiert wird.
Ja, Microsoft hat hier – mal wieder – seine Grenzen überschritten. Und das ist nicht zu befürworten. Aber wenn Copilot nicht rechtlich angreifbar ist, wie steht es denn dann um die Nutzer von Copilot? Ich kenne mich im Urheberrecht/Copyleft nicht so gut aus, aber wenn Copilot auf Basis von Projekt A trainiert wird und danach Vorschläge für Projekt B macht, müsste sich die Lizenz von Projekt B dann nicht nach der Lizenz von Projekt A richten? Immerhin hat Projekt B dann von Projekt A „abgeschrieben“, also im Sinne der Lizenz den Code kopiert, verändert und weitervertrieben.
Wenn das der Fall wäre und unter der Annahme dass Copilot auf Basis verschiedener Projekte mit verschiedenen Lizenzen trainiert wird, könnte keiner – rechtlich gesehen – Copliot nutzen, da es keine Lizenz gibt, die erlaubt, von allen anderen Lizenzen abzuschreiben.
Zumindest wäre das der Fall, wenn im Team von Projekt B ein Mitglied andere Projekte durchstöbern würde, um Ideen für Projekt B zu finden. Wenn dieses Mitglied von Projekt A etwas abschreiben wollte, müsste er/sie die Lizenzen kontrollieren und entsprechende Attributionen im Projekt B vermerken. Wieso sollte eine KI, die aber im Prinzip das selbe macht wie ein menschlicher Mitarbeiter, andere lizenzrechtlichen Folgen für Projekt B haben?
Wie im Artikel erklärt, denke ich, es verhält sich wie folgt:
Fällt ein Code-Abschnitt unter das Urheberrecht, dann hängt es von der Lizenz ab, ob „Abschreiben“ erlaubt ist. Wenn der Abschnitt nicht urheberrechtsfähig ist, dann darf er „abgeschrieben“ werden.
Sollte ein ganz neuer Code-Abschnitt generiert werden, dann hat er keinen Urheber. Die Frage ist hier, ab welcher Ähnlichkeit und Länge das nicht mehr gilt, weil es als Kopie nicht als generiert gilt. (Siehe meine vorherige Anmerkung zum Problemfall.)
GitHub is alleged to have tuned its Copilot programming assistant to generate slight variations of ingested training code to prevent output from being flagged as a direct copy of licensed software.
This assertion appeared on Thursday in the amended complaint [PDF] against Microsoft, GitHub, and OpenAI over Copilot’s documented penchant for reproducing developers‘ publicly posted, open source licensed code.
The lawsuit, initially filed last November on behalf of four unidentified („J. Doe“) plaintiffs, claims that Copilot – a code suggestion tool built from OpenAI’s Codex model and commercialized by Microsoft’s GitHub – was trained on publicly posted code in a way that violates copyright law and software licensing requirements and that it presents other people’s code as its own.
Microsoft, GitHub, and OpenAI tried to have the case dismissed, but managed only to shake off some of the claims. The judge left intact the major copyright and licensing issues, and allowed the plaintiffs to refile several other claims with more details.
https://www.theregister.com/2023/06/09/github_copilot_lawsuit/